<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>significant_text 聚合 | ElasticSearch 7.7 权威指南中文版</title>
	<meta name="keywords" content="ElasticSearch 权威指南中文版, elasticsearch 7, es7, 实时数据分析，实时数据检索" />
    <meta name="description" content="ElasticSearch 权威指南中文版, elasticsearch 7, es7, 实时数据分析，实时数据检索" />
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
	<script>
	var _link = 'search-aggregations-bucket-significanttext-aggregation.html';
    </script>
</head>
<body>
<div class="main-container">
    <section id="content">
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/reference/7.7/search-aggregations-bucket-significanttext-aggregation.html" rel="nofollow" target="_blank">https://www.elastic.co/guide/en/elasticsearch/reference/7.7/search-aggregations-bucket-significanttext-aggregation.html</a>, 原文档版权归 www.elastic.co 所有<br/>本地英文版地址: <a href="../en/search-aggregations-bucket-significanttext-aggregation.html" rel="nofollow" target="_blank">../en/search-aggregations-bucket-significanttext-aggregation.html</a></div>
                        <!-- start body -->
                  <div class="page_header">
<strong>重要</strong>: 此版本不会发布额外的bug修复或文档更新。最新信息请参考 <a href="https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html" rel="nofollow">当前版本文档</a>。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch 权威指南 [7.7]</a></span>
»
<span class="breadcrumb-link"><a href="search-aggregations.html">聚合</a></span>
»
<span class="breadcrumb-link"><a href="search-aggregations-bucket.html">桶(bucket)聚合</a></span>
»
<span class="breadcrumb-node">significant_text 聚合</span>
</div>
<div class="navheader">
<span class="prev">
<a href="search-aggregations-bucket-significantterms-aggregation.html">« significant_terms 聚合</a>
</span>
<span class="next">
<a href="search-aggregations-bucket-terms-aggregation.html">terms 聚合 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="search-aggregations-bucket-significanttext-aggregation"></a>重要文本(significant_text)聚合
</h2>
</div></div></div>
<p>
一种聚合，返回集合中有趣或不寻常的自定义文本的聚合。

它类似于<a class="xref" href="search-aggregations-bucket-significantterms-aggregation.html" title="重要词项聚合">significant_terms</a>聚合，但不同之处在于:
</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
它是专门设计用于<code class="literal">text</code>类型的字段的
</li>
<li class="listitem">
它不需要字段数据或文档值
</li>
<li class="listitem">
它可以动态地重新分析文本内容，这意味着它还可以过滤噪音文本的重复部分，否则这些重复部分会影响统计数据。
</li>
</ul>
</div>
<div class="warning admon">
<div class="icon"></div>
<div class="admon_content">
<p>
重新分析<em>大</em>结果集将需要大量的时间和内存。

建议将 significant_text 聚合用作 <a class="xref" href="search-aggregations-bucket-sampler-aggregation.html" title="采样器聚合">sampler</a> 或 <a class="xref" href="search-aggregations-bucket-diversified-sampler-aggregation.html" title="多样化取样聚合">diversified_sampler</a> 聚合的子元素，以将分析限制在一小部分最匹配的文档中，例如200个。

这通常会提高速度、内存使用和结果的质量。
</p>
</div>
</div>
<div class="ulist itemizedlist">
<p class="title"><strong>用例示例：</strong></p>
<ul class="itemizedlist">
<li class="listitem">
当用户搜索“禽流感”时，提示“H5N1”以扩展查询
</li>
<li class="listitem">
在自动新闻分类器中使用的与股票代码 $ATI 相关的建议关键字
</li>
</ul>
</div>
<p>
在这些情况下，被选择的单词不仅仅是结果中最流行的词项。

最流行的词往往很无聊(<em>and, of, the, we, I, they</em> …​)。

重要的单词是在<em>前景(foreground)</em>和<em>背景(background)</em>集之间受欢迎程度发生了显著变化的词项。

如果词项“H5N1”仅存在于1000万个文档索引中的5个文档中，但是在构成用户搜索结果的100个文档中的4个中出现，则这是重要的并且可能与他们的搜索非常相关。

频率 5/10,000,000 与 4/100 相比差别很大。
</p>
<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_basic_use"></a>基本用法
</h3>
</div></div></div>
<p>在典型的用例中，感兴趣的<em>前景</em>集是对查询的最佳匹配搜索结果的选择，而用于统计比较的<em>背景</em>集则是从中收集结果的一个或多个索引。</p>
<p>示例：</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">GET news/_search
{
    "query" : {
        "match" : {"content" : "Bird flu"}
    },
    "aggregations" : {
        "my_sample" : {
            "sampler" : {
                "shard_size" : 100
            },
            "aggregations": {
                "keywords" : {
                    "significant_text" : { "field" : "content" }
                }
            }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/517.console"></div>
<p>响应：</p>
<div class="pre_wrapper lang-console-result">
<pre class="programlisting prettyprint lang-console-result">{
  "took": 9,
  "timed_out": false,
  "_shards": ...,
  "hits": ...,
    "aggregations" : {
        "my_sample": {
            "doc_count": 100,
            "keywords" : {
                "doc_count": 100,
                "buckets" : [
                    {
                        "key": "h5n1",
                        "doc_count": 4,
                        "score": 4.71235374214817,
                        "bg_count": 5
                    }
                    ...
                ]
            }
        }
    }
}</pre>
</div>
<p>
结果显示，“h5n1”是与“bird flu”（禽流感）密切相关的几个词项之一。

作为一个整体，它在我们的索引中只出现了5次(见<code class="literal">bg_count</code>)，但其中4次幸运地出现在我们的100份“bird flu”结果样本中。

这表明了它是一个重要的词，用户可以潜在地添加到他们的搜索中去。
</p>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="filter-duplicate-text-noisy-data"></a>使用<code class="literal">filter_duplicate_text</code>处理噪声数据
</h3>
</div></div></div>
<p>自定义字段通常包含原始内容和文本的机械副本(剪切和粘贴传记、电子邮件回复链、转发、样板页眉/页脚、页面导航菜单、侧栏新闻链接、版权声明、标准免责声明、地址)。</p>
<p>
在真实世界的数据中，如果不过滤掉这些重复的文本部分，它们往往会在<code class="literal">significant_text</code>结果中占据重要位置。

在索引时过滤近似重复的文本是一项困难的任务，但是我们可以使用<code class="literal">filter_duplicate_text</code>设置在查询时即时清理数据。
</p>
<p>
首先，让我们来看一个未经过滤的真实世界的例子，它使用了涵盖各种新闻的一百万篇新闻文章的<a href="http://research.signalmedia.co/newsir16/signal-dataset.html" class="ulink" target="_top">Signal media数据集</a>。

以下是搜索提及“elasticsearch”的文章的原始重要文本结果:
</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">{
    ...
  "aggregations": {
    "sample": {
      "doc_count": 35,
      "keywords": {
        "doc_count": 35,
        "buckets": [
          {
            "key": "elasticsearch",
            "doc_count": 35,
            "score": 28570.428571428572,
            "bg_count": 35
          },
          ...
          {
            "key": "currensee",
            "doc_count": 8,
            "score": 6530.383673469388,
            "bg_count": 8
          },
          ...
          {
            "key": "pozmantier",
            "doc_count": 4,
            "score": 3265.191836734694,
            "bg_count": 4
          },
          ...

}</pre>
</div>
<p>
未清理的文档中出现了一些看起来很奇怪的词，从表面上看，这些词与我们的搜索词“elasticsearch”在统计上是相关的，例如“pozmantier”。

我们可以深入到这些文档的示例中，看看为什么使用以下查询会关联到"pozmantier"：
</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">GET news/_search
{
  "query": {
    "simple_query_string": {
      "query": "+elasticsearch  +pozmantier"
    }
  },
  "_source": [
    "title",
    "source"
  ],
  "highlight": {
    "fields": {
      "content": {}
    }
  }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/518.console"></div>
<p>结果显示了一系列非常相似的新闻文章，内容是关于一些科技项目的评审小组:</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">{
  ...
  "hits": {
    "hits": [
      {
        ...
        "_source": {
          "source": "Presentation Master",
          "title": "T.E.N. Announces Nominees for the 2015 ISE® North America Awards"
        },
        "highlight": {
          "content": [
            "City of San Diego Mike &lt;em&gt;Pozmantier&lt;/em&gt;, Program Manager, Cyber Security Division, Department of",
            " Janus, Janus &lt;em&gt;ElasticSearch&lt;/em&gt; Security Visualization Engine "
          ]
        }
      },
      {
        ...
        "_source": {
          "source": "RCL Advisors",
          "title": "T.E.N. Announces Nominees for the 2015 ISE(R) North America Awards"
        },
        "highlight": {
          "content": [
            "Mike &lt;em&gt;Pozmantier&lt;/em&gt;, Program Manager, Cyber Security Division, Department of Homeland Security S&amp;T",
            "Janus, Janus &lt;em&gt;ElasticSearch&lt;/em&gt; Security Visualization Engine"
          ]
        }
      },
      ...</pre>
</div>
<p>Mike Pozmantier是评审团中的众多评委之一，elasticsearch 被用于众多被评的项目中的一个。</p>
<p>通常情况下，这篇冗长的新闻稿会被各种新闻网站剪切和粘贴，因此，它们包含的任何罕见的名称、数字或拼写错误都会在统计上与我们的匹配查询相关。</p>
<p>
幸运的是，相似的文档倾向于相似地排序，因此作为检查最匹配文档流的一部分，significant_text 聚合可以应用过滤器来移除已经看到的任何 6 个或更多个词元(token)的序号。

现在让我们来尝试同样的查询，但是打开<code class="literal">filter_duplicate_text</code>设置：
</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">GET news/_search
{
  "query": {
    "match": {
      "content": "elasticsearch"
    }
  },
  "aggs": {
    "sample": {
      "sampler": {
        "shard_size": 100
      },
      "aggs": {
        "keywords": {
          "significant_text": {
            "field": "content",
            "filter_duplicate_text": true
          }
        }
      }
    }
  }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/519.console"></div>
<p>对于任何熟悉 elastic stack 的人来说，分析我们的去重的文本的结果显然质量更高：</p>
<div class="pre_wrapper lang-js">
<pre class="programlisting prettyprint lang-js">{
  ...
  "aggregations": {
    "sample": {
      "doc_count": 35,
      "keywords": {
        "doc_count": 35,
        "buckets": [
          {
            "key": "elasticsearch",
            "doc_count": 22,
            "score": 11288.001166180758,
            "bg_count": 35
          },
          {
            "key": "logstash",
            "doc_count": 3,
            "score": 1836.648979591837,
            "bg_count": 4
          },
          {
            "key": "kibana",
            "doc_count": 3,
            "score": 1469.3020408163263,
            "bg_count": 5
          }
        ]
      }
    }
  }
}</pre>
</div>
<p>由于复制粘贴操作或其他形式的机械重复，Pozmantier先生和其他与elasticsearch的一次性关联不再出现在聚合结果中。</p>
<p>
如果你的重复或近似重复的内容可通过单值索引字段(可能是文章的<code class="literal">title</code>文本的哈希或<code class="literal">original_press_release_url</code>字段)来识别，那么使用父<a class="xref" href="search-aggregations-bucket-diversified-sampler-aggregation.html" title="Diversified Sampler Aggregation">diversified_sampler</a>聚合来从基于该单个关键字的样本集中消除这些文档会更有效。

从性能的角度来看，你可以预先提供给 significant_text 聚合的重复内容越少，性能就越好。
</p>
<div class="sidebar">
<div class="titlepage"><div><div>
<p class="title"><strong>重要性分数是如何计算的？</strong></p>
</div></div></div>
<p>
返回的分数主要是为了对不同的建议进行合理的排名，而不是为了让最终用户容易理解。

分数是从<em>前景</em>和<em>背景</em>集中的文档频率得出的。

简而言之，如果一个词在子集和背景中出现的频率有显著差异，则认为该词是重要的。

可以配置词项的排列方式，请参见“参数”部分。
</p>
</div>
<div class="sidebar">
<div class="titlepage"><div><div>
<p class="title"><strong>使用<em>"像这样但又不是这样(like this but not this)"</em>模式</strong></p>
</div></div></div>
<p>
你可以通过首先搜索结构化字段，例如<code class="literal">category:adultMovie</code>，并在自定义文本“movie_description”字段中使用 significant_text 来识别错误分类的内容。

使用建议的词(我会让你自己想象)，然后搜索所有<b>没有</b>标记为 category:adultMovie 但包含这些关键词的电影。

你现在有一个分类糟糕的电影的排名列表，你应该重新分类或至少从“familyFriendly”类别中删除。 
</p>
<p>
每个词项的重要性分数也可以提供一个有用的<code class="literal">boost</code>设置来对匹配进行排序。

使用带有关键字的<code class="literal">terms</code>查询的<code class="literal">minimum_should_match</code>设置将有助于控制结果集中的精确度/召回率的平衡，即高设置将使少量相关结果充满关键字，而设置“1”将产生包含<em>任何</em>关键字的所有文档的更详尽的结果集。
</p>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_limitations_6"></a>局限性
</h3>
</div></div></div>
<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_no_support_for_child_aggregations"></a>不支持子聚合
</h4>
</div></div></div>
<p>significant_text 聚合故意不支持添加子聚合，因为：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
这将带来很高的内存成本
</li>
<li class="listitem">
这不是一个普遍有用的功能，对于那些需要它的人有一个变通的方法
</li>
</ul>
</div>
<p>
候选词的数量通常非常大，并且在返回最终结果之前会被大量删减。

支持子聚合会产生额外的波动，而且效率低下。 

客户端总是可以从一个<code class="literal">significant_text</code>请求中获得大量精简的结果集，并使用带有<code class="literal">include</code>子句的<code class="literal">terms</code>聚合和子聚合进行后续查询，从而以更高效的方式对选定的关键字进行进一步分析。
</p>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_no_support_for_nested_objects"></a>不支持嵌套对象
</h4>
</div></div></div>
<p>
significant_text 聚合目前还不能用于嵌套对象中的 text 字段，因为它适用于文档 JSON 源。

在给定一个匹配的 Lucene docID(文档ID)的情况下，当从存储的 JSON 中匹配嵌套文档时，这使得这个特性效率很低。
</p>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_approximate_counts_2"></a>近似计数
</h4>
</div></div></div>
<p>结果中提供的包含某个词项的文档数是基于从每个分片返回的样本的总和，因此可能是：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
如果某些分片没有提供其前几个样本中给定词项的数字，则计数会偏低
</li>
<li class="listitem">
当考虑背景频率时，因为它可以计算在已删除文档中发现的出现次数，则计数会偏高
</li>
</ul>
</div>
<p>
像大多数设计决策一样，这是权衡的基础，我们选择以一些(通常很小的)不准确性为代价来提供高性能。

但是，下一节中介绍的<code class="literal">size</code>和<code class="literal">shard size</code>设置提供了帮助控制精度级别的工具。
</p>
</div>

</div>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_parameters_5"></a>参数
</h3>
</div></div></div>
<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_significance_heuristics"></a>重要性启发法(Significance heuristics)
</h4>
</div></div></div>
<p>这种聚合支持与<a class="xref" href="search-aggregations-bucket-significantterms-aggregation.html" title="重要词项聚合">significant_terms</a>聚合相同的评分试探法(JLH、交互信息、gnd、卡方等)</p>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="sig-text-shard-size"></a>size 和 shard size
</h4>
</div></div></div>
<p>
可以设置参数<code class="literal">size</code>来定义应该从整个词项列表中返回多少个词项桶。

默认情况下，协调搜索过程的节点将请求每个分片提供各自的前几个词项桶，一旦所有分片做出响应，它将把结果缩减为最终列表，然后返回给客户端。

如果唯一的词项的数量大于<code class="literal">size</code>，则返回的列表可能稍有偏差且不准确(可能是词项计数稍有偏差，甚至可能是本应该是前<code class="literal">size</code>个桶中的词项没有返回)。
</p>
<p>
为了确保更好的准确性，使用最终<code class="literal">size</code>的倍数作为从每个分片请求的词项数(<code class="literal">2 * (size * 1.5 + 10)</code>)。

为了手动控制这个设置，可以使用参数<code class="literal">shard_size</code>来控制每个分片产生的候选词项的数量。
</p>
<p>
所有结果合并后，低频词项可能会成为最有趣的词项，因此当参数<code class="literal">shard_size</code>设置为明显高于<code class="literal">size</code>设置的值时，significant_terms聚合可以生成更高质量的结果。

这确保了在最终选择之前，缩减节点会对大量有希望的候选词项进行综合审查。

很明显，大的候选词项列表将导致额外的网络流量和内存使用，因此这是需要平衡的质量/成本权衡。

如果<code class="literal">shard_size</code>设置为-1(默认值)，那么<code class="literal">shard_size</code>将根据分片数量和<code class="literal">size</code>参数自动估算。
</p>
<div class="note admon">
<div class="icon"></div>
<div class="admon_content">
<p>
<code class="literal">shard_size</code>不能小于<code class="literal">size</code>(因为没有太大意义)。

当出现这种情况时，Elasticsearch将覆盖它并将其重置为与<code class="literal">size</code>相等。
</p>
</div>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_minimum_document_count_3"></a>最小文档数量
</h4>
</div></div></div>
<p>使用<code class="literal">min_doc_count</code>选项可以只返回匹配超过配置的命中次数的词项。默认值为 <code class="literal">3</code>。</p>
<p>
得分高的词项将在一个分片级别上进行收集，并在第二步中与从其他分片收集的词项合并。

然而，分片没有关于可用的全局词项频率的信息。


是否将一个词项添加到候选列表的决定只取决于使用局部分片频率在分片上计算的分数，而不是该词的全局频率。

<code class="literal">min_doc_count</code>标准仅在合并所有分片的本地词项统计之后应用。

在某种程度上，在没有非常<em>确定</em>该词项是否将实际达到所需的<code class="literal">min_doc_count</code>的情况下，就做出了将该词项添加为候选项的决定。

如果低频但得分高的词项填充了候选列表，这可能导致许多(全局)高频的词项在最终结果中丢失。

为了避免这种情况，可以增加<code class="literal">shard_size</code>参数，以允许分片上有更多的候选项。

但是，这会增加内存消耗和网络流量。
</p>
<p>参数<code class="literal">shard_min_doc_count</code></p>
<p>
参数<code class="literal">shard_min_doc_count</code>规定了一个分片相对于<code class="literal">min_doc_count</code>是否应该被实际添加到候选列表中的<em>确定性</em>。

只有当词项在集合中的本地分片频率高于<code class="literal">shard_min_doc_count</code>时，才会考虑这些词项。

如果你的字典包含许多低频的单词，而你对这些单词不感兴趣(例如拼写错误)，那么你可以设置<code class="literal">shard_min_doc_count</code>参数来过滤掉分级别上的候选词，即使在合并本地频率之后，这些候选词也肯定不会达到所需的<code class="literal">min_doc_count</code>。

默认情况下，<code class="literal">shard_min_doc_count</code>设置为<code class="literal">1</code>，除非你显式设置它，否则它不起作用。
</p>
<div class="warning admon">
<div class="icon"></div>
<div class="admon_content">
<p>
通常不建议将<code class="literal">min_doc_count</code>设置为<code class="literal">1</code>，因为它会返回拼写错误或其他奇怪的词。

找到一个词项的不止一个实例有助于强化这一点，尽管这种情况仍然很少见，但这个词项不是一次性事故的结果。

默认值 3 用于提供最小证据权重。 

<code class="literal">shard_min_doc_count</code>设置得太高会导致重要的候选词项在分片级别被过滤掉。

该值应设置为远低于 <code class="literal">min_doc_count/#shards</code>。
</p>
</div>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_custom_background_context_2"></a>自定义背景上下文
</h4>
</div></div></div>
<p>背景词项频率的统计信息的默认来源是整个索引，并且可以通过使用<code class="literal">background_filter</code>来缩小该范围，以便在更窄的上下文中聚焦于重要的词项：</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">GET news/_search
{
    "query" : {
        "match" : {
            "content" : "madrid"
        }
    },
    "aggs" : {
        "tags" : {
            "significant_text" : {
                "field" : "content",
                "background_filter": {
                    "term" : { "content" : "spain"}
                }
            }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/520.console"></div>
<p>上述过滤器将有助于集中在 Madrid 市特有的词项上，而不是显示诸如“Spanish”的词项，这些词项在完整索引的全局上下文中是不常见的，但是在包含单词“Spain”的文档子集中是常见的。</p>
<div class="warning admon">
<div class="icon"></div>
<div class="admon_content">
<p>使用背景过滤器会降低查询速度，因为必须过滤每个词的帖子来确定频率</p>
</div>
</div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_dealing_with_source_and_index_mappings"></a>处理源和索引映射
</h4>
</div></div></div>
<p>
通常，索引的字段名和被检索的原始 JSON 字段共享相同的名称。

然而，对于使用<code class="literal">copy_to</code>源 JSON 字段和被聚合的索引字段等特性的更复杂的字段映射，可能会有所不同。

在这些情况下，可以使用参数<code class="literal">source_fields</code>列出从中分析文本的 JSON _source 字段：
</p>
<div class="pre_wrapper lang-console">
<pre class="programlisting prettyprint lang-console">GET news/_search
{
    "query" : {
        "match" : {
            "custom_all" : "elasticsearch"
        }
    },
    "aggs" : {
        "tags" : {
            "significant_text" : {
                "field" : "custom_all",
                "source_fields": ["content" , "title"]
            }
        }
    }
}</pre>
</div>
<div class="console_widget" data-snippet="snippets/521.console"></div>
</div>

<div class="section">
<div class="titlepage"><div><div>
<h4 class="title">
<a id="_filtering_values_3"></a>过滤值
</h4>
</div></div></div>
<p>
可以(尽管很少需要)过滤将为其创建桶的值。

这可以使用基于正则表达式字符串或精确项数组的<code class="literal">include</code>和<code class="literal">exclude</code>参数来完成。

此功能反映了<a class="xref" href="search-aggregations-bucket-terms-aggregation.html" title="terms 聚合" rel="nofollow">terms聚合</a>文档中描述的功能。
</p>
</div>

</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="search-aggregations-bucket-significantterms-aggregation.html">« significant_terms 聚合</a>
</span>
<span class="next">
<a href="search-aggregations-bucket-terms-aggregation.html">terms 聚合 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>